汉字编码
汉字编码是一个笼统的概念,细究起来,可以有多个层次的理解。这里先列出GBT12200.1一1990《汉语信息处理词汇01部分:基本术语》中的相关条目。
汉字编码(Chinese Character Coding):按照一定的规则对指定的汉字集内的元素编制相应的代码。
汉字编码字符集(Chinese Character Coded Character Set):按一定的规则确定的包含汉字及有关基本图形字符的有序集合,并规定该集合中的字符与编码表示之间一一对应的关系。例如:GB2312。
汉字编码(键盘)输入方法(Chinese Character Coding(Keyboard)nput Method):运用某种编码方案、键盘设备及计算机资源由操作者向计算机输入汉字的方法。 汉字输入
汉字信息交换码(Chinese Character For Information Interchange):汉字信息处理系统之间或者信息处理系统与通信系统之间进行汉字信息交换的代码。
汉字内部码(Chinese Character Internal Code):汉字在信息处理系统内部最基本的表达形式,供存储、处理、传输汉字用。
汉字字形码(Chinese Character Font Code):
表达汉字字形的字模数据,通常用点阵、矢量函数等方式表示。
其中(键盘)输入方法简称输入法,其编码方案即汉字的输入码。输入码、交换码、内部码和字形码是构成“汉字编码”概念体系的4个主要方面,分别代表汉字在信息处理系统中的四个基本环节
内部码简称内码,又称存储码、处理码。汉字输入时要将输入码(又称外码)转为内码,输出时将内码转为字形码。在系统内部(硬盘、内存和处理器等)存储文件、运行程序时用到的汉字都是其内码形式。由于字符集的编码标准通常都以交换码的形式发布,因此内码总是对应于某一交换码(对应关系详见22节)。
交换码与内码:
1980 GB2312是简化字集,GB12345是繁体字集.1980年,我国发布国家标准GB/T2311一1980《信息技术字符代码结构与扩充技术》,该标准等同于国际标准IS0/EC2022。
BIG5是目前中国台湾和中国香港地区普遍使用的一种繁体汉字的编码标准
国家技术监督局标准化司和原电子工业部科技与质量监督司于1995年联合发布了技术规范指导性文件《汉字内码扩展规范(GBK)》。
2000年,国家质量技术监督局发布正式国家标准GB18030一2000《信息技术信息交换用汉字编码字符集基本集的扩充》代替GBK标准。同样,GB18030一2000也向下兼容GBK,在字汇上增收当时Unicode中新加入的CJK统一汉字扩展A部分。其编码结构采用单字节、双字节和四字节3种方式,